Average word length | # of sentences | Source |
---|---|---|
11.78 | 20 | http://ky.wikipedia.org/wiki/Чүкө_оюндары |
12.03 | 15 | http://ky.wikipedia.org/wiki/Кыргыздар_Сибирь_тарыхында |
12.05 | 11 | http://ky.wikipedia.org/wiki/Талас_аймагындагы_ыйык_жерлер |
12.08 | 27 | http://ky.wikipedia.org/wiki/Боз_уй |
12.29 | 11 | http://ky.wikipedia.org/wiki/Жанар_тоо |
12.29 | 14 | http://ky.wikipedia.org/wiki/Гүлшайыр_Садыбакасова |
12.30 | 29 | http://ky.wikipedia.org/wiki/Ээр |
12.40 | 10 | http://ky.wikipedia.org/wiki/Бишкек_баатыр |
12.43 | 10 | http://ky.wikipedia.org/wiki/Гарри_Поттер_жана_Сырлар_бөлмөсү_(тасма) |
12.51 | 12 | http://ky.wikipedia.org/wiki/Мектепке_чейинки_курак |
12.59 | 12 | http://ky.wikipedia.org/wiki/Ысык-Көл_облусу |
12.69 | 16 | http://ky.wikipedia.org/wiki/Кой_союу |
12.73 | 155 | http://ky.wikipedia.org/wiki/Сактар |
12.81 | 11 | http://ky.wikipedia.org/wiki/Ала_качуу |
12.86 | 18 | http://ky.wikipedia.org/wiki/«Көкөтөйдүн_ашы» |
12.89 | 11 | http://ky.wikipedia.org/wiki/Коруктар |
12.94 | 11 | http://ky.wikipedia.org/wiki/Көпөев_Азиз |
12.96 | 10 | http://ky.wikipedia.org/wiki/Косметика_каражаттары |
12.97 | 11 | http://ky.wikipedia.org/wiki/Хакийм_Нуруддин |
13.02 | 17 | http://ky.wikipedia.org/wiki/Али_ибни_Абуталиб |
13.03 | 11 | http://ky.wikipedia.org/wiki/Рудаки |
13.04 | 16 | http://ky.wikipedia.org/wiki/Каргыш_албай_алкыш_ал_же_сөздүн_күчү |
13.06 | 15 | http://ky.wikipedia.org/wiki/Мелис_Эшимканов |
13.07 | 14 | http://ky.wikipedia.org/wiki/Сөөк_системасы |
13.07 | 10 | http://ky.wikipedia.org/wiki/Ак_калпак |
13.09 | 10 | http://ky.wikipedia.org/wiki/Конго_Республикасы |
13.15 | 17 | http://ky.wikipedia.org/wiki/Малайзия |
13.18 | 11 | http://ky.wikipedia.org/wiki/Тебриз_базары |
13.18 | 14 | http://ky.wikipedia.org/wiki/Катаган |
13.25 | 12 | http://ky.wikipedia.org/wiki/Кабо-Верде |
Average word length | # of sentences | Source |
---|---|---|
17.39 | 12 | http://ky.wikipedia.org/wiki/Кыргыз_Мамлекеттик_Техникалык_Университети |
16.77 | 10 | http://ky.wikipedia.org/wiki/Кыргыздардын_жана_тувалардын_этномаданий_байланыштары. |
16.71 | 10 | http://ky.wikipedia.org/wiki/Кыргыз_мамлекеттик_юридикалык_академиясы |
16.44 | 13 | http://ky.wikipedia.org/wiki/Тиричилик |
16.25 | 12 | http://ky.wikipedia.org/wiki/Информациялык-коммуникациялык_технологиялар_тууралуу_негизги_түшүнүктөр |
16.18 | 12 | http://ky.wikipedia.org/wiki/Аргентина |
16.14 | 16 | http://ky.wikipedia.org/wiki/Люксембург |
16.04 | 17 | http://ky.wikipedia.org/wiki/Кыргыз_Республикасынын_Коомдук_Телерадиоберүү_Корпорациясы |
16.04 | 13 | http://ky.wikipedia.org/wiki/Эволюция |
15.56 | 16 | http://ky.wikipedia.org/wiki/«Кыргыз»_этноними |
15.54 | 80 | http://ky.wikipedia.org/wiki/Дан_технологиялары |
15.52 | 10 | http://ky.wikipedia.org/wiki/Франк,_Семен_Людвигович |
15.51 | 15 | http://ky.wikipedia.org/wiki/Элдик_педагогика |
15.51 | 10 | http://ky.wikipedia.org/wiki/Кыргыз-хакас_тарыхый-этностук_алакалары |
15.50 | 11 | http://ky.wikipedia.org/wiki/Кыргызстандын_археологиясы |
15.49 | 11 | http://ky.wikipedia.org/wiki/Венесуэла |
15.47 | 11 | http://ky.wikipedia.org/wiki/Кыргыздардын_жана_алтайлыктардын_этномаданий_байланыштары |
15.44 | 13 | http://ky.wikipedia.org/wiki/Фермент |
15.36 | 10 | http://ky.wikipedia.org/wiki/Фома_Аквинский |
15.31 | 27 | http://ky.wikipedia.org/wiki/Америка_Кошмо_Штаттары |
15.26 | 15 | http://ky.wikipedia.org/wiki/Соловьёв,_Владимир_Сергеевич |
15.23 | 10 | http://ky.wikipedia.org/wiki/Ливия |
15.22 | 14 | http://ky.wikipedia.org/wiki/Мугалимдерди_даярдоодо_стандарттар_жана_аккредитация |
15.19 | 12 | http://ky.wikipedia.org/wiki/Азербайжан |
15.14 | 25 | http://ky.wikipedia.org/wiki/Саясий_жарнама |
15.08 | 13 | http://ky.wikipedia.org/wiki/Европа |
15.04 | 13 | http://ky.wikipedia.org/wiki/Болонья_процесси |
15.01 | 10 | http://ky.wikipedia.org/wiki/AIESEC |
14.98 | 19 | http://ky.wikipedia.org/wiki/Канада |
14.92 | 14 | http://ky.wikipedia.org/wiki/Иран |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words